Day 1 - 什麼是VLM - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 1

生成式 AI

VLM系列第 1 篇

Day 1 - 什麼是VLM

17th鐵人賽

皮二仔

2025-09-15 23:54:19

285 瀏覽

分享至

視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工智慧(AI)模型。
VLM也是一種生成式模型，但與僅能處理文字資料的大型語言模型（LLM）不同，VLM將LLM的處理文字的能力擴展到視覺領域，使用者輸入可以是圖像或文字，而AI系統能夠「看懂」圖像並「理解」文字指令，進而實現雙向的溝通與內容生成。

VLM 的應用場景，包括：

圖像描述 (Image Captioning) :
視覺問答 (Visual QA)：輸入圖像或影片並根據使用者提出的文字問題，描述圖像中的情境或解釋其內容。
文件理解 (Document Understanding)：從文件的表格、圖表、資訊圖表、圖示或流程圖中提取內容。
圖文對話 (Vision-Language Chat)：不但可理解圖像內容，使用者可與AI系統進行多輪對話。
光學字元識別 (Optical Character Recognition, OCR)：辨識圖像中的文字，甚至處理複雜的文字情境。
多模態推理 (Reasoning)：結合圖表、表格、文件進行推理，以連貫且具邏輯的文字進行回應，甚至提供相關分析或建議。。
物件偵測 (Object Detection)：在圖像中識別並定位物件。
分割 (Segmentation)：將圖像劃分為具有語義意義的區域。
定位 (Grounding)：返回圖片中實體的座標、框、遮罩。

AI 若要「理解世界」，只有文字是不夠的，還需要感知能力，電腦視覺就像是 AI 的「眼睛」，透過影像與影片資料，讓AI能辨識人臉、物體、文字、場景，沒有視覺，AI 在許多真實場景中的應用會受到極大限制，相較於目前已相對成熟及應用廣泛LLM，例如我們熟知的ChatGPT、Gemini等，VLM 仍在發展階段，且由於要處理的影像資料較複雜，需要的資源也較高，尚有許多挑戰，但成長非常快速，已持續發展出許多模型，相信未來當它更精準、更即時，VLM會因為在跨模態的能力，使AI有更多元的應用。

接下來的30天，就和我一起來瞭解 VLM 的技術原理、測試各家模型及實作。